| |||||||||||||||||||||||||||||||||||||||||||||||||||||
На главную страницу третьего семестра 1. Создание индексных файлов для работы с локальными версиями программ семейства BLASTЧерез Putty получила доступ к программе formatdb, которая имеет следующие нужные нам параметры:
1. -i имя файла, подаваемого программе на вход Программе была задана следующая строка: formatdb -i /home/export/samba/public/tmp/vc_genome.fasta -p F -n vc На выходе получены следующие 3 файла, сохраненные в открытой на тот момент папке (BLAST): vc.nhr, vc.nin и vc.nsq. 2. Поиск в неаннотированном геноме генов, кодирующих белки, похожие на заданныйДля данной операции была выбрана программа tBLASTn, которая предназначена для поиска гомологов белка в неаннотированных нуклеотидных последовательностях.
При одновременном поиске в 3 геномах лучшая находка оказалась в геноме Vibrio cholerae. *Примечание. Запись AE004891 для Pseudomonas aeruginosa была заменена на AE004091 12 июля 2006 года. Но и в этой записи нет информации о координатах CDS. 3. Аналогичный поиск сразу в нескольких геномахСоздала в директории BLAST индексные файлы BLAST для поиска по всем трем геномам сразу. Для этого в Putty была выполнена программа:
1) Заведена переменная "genpath" выполнением команды:
2)Заведена переменная "genomes" выполнением команды:
3) Созданы индексные файлы: С помощью программы tBLASTn проведен поиск по трем геномам. Результаты нового поиска отражены в последних 2 строках таблицы предыдущего задания. Так как по сути были произведены одинаковые поиски, то и разительно отличающихся результатов нет. Но во втором случае (поиск сразу по всем 3 геномам) количество находок с заданным e-value уменьшилось (в случае Vibrio cholerae). Главное различие между результатами двух поисков (по 3 отдельным геномам и в совокупности) - повышение e-value в последнем случае. Это можно объяснить природой e-value. E-value есть число выравниваний с тем же весом, что данное, сделанных при поиске в базе данных, содержащей случайные последовательности. Эта самая база данных содержит те же аминокислотные остатки, что и та, в которой мы ведем поиск, но аминокислоты в ней выстроены в случайном порядке. Соответственно, размер базы данных прямо пропорционален количеству возможных комбинаций выравниваний. То есть в результате - чем больше БД, тем больше возможное e-value. В нашем случае в роли БД служат один (в первом случае) или три (во втором) генома. Понятно, что при поиске сразу по всем 3 геномам, e-value повышается. А количество находок, "влезающих" в границы заданного e-value может и уменьшится.
4. Поиск гомологов с помощью программы BLASTNСкопировала в свою рабочую директорию BLAST fasta-файл с гeном (AF318185) белка CUER_ECOLI. Нашла гомологов этого гена в трёх геномах программой BLASTN. Результаты поиска описаны ниже в протоколе:Лучшей находкой оказался ген из последовательности Vibrio cholerae.
E-value лучшей находки: 0.016
>embl|AE004179|AE004179 Vibrio cholerae O1 biovar eltor str. N16961 chromosome I, section 87 of 251 of the complete chromosome. Length = 10622 Score = 38.2 bits (19), Expect = 0.016 Identities = 25/27 (92%) Strand = Plus / Plus Query: 103 ggttatcgcacctacacgcagcagcat 129 ||||||||||| ||||| ||||||||| Sbjct: 2450 ggttatcgcacttacactcagcagcat 2476 © Лозиер Екатерина |